Paper-How much real data do we actually need-Analyzing object detection performance using synthetic and real data

论文阅读。

资源

全文

Abstract

  • 进一步分析了拥有有限数量真实数据的影响
  • 使用多个合成和真实数据集以及一个模拟工具来创建大量廉价注释的合成数据
  • 分析了每个数据集的领域相似性
  • 提供了关于设计使用这些数据集训练深度网络的方法程序的见解

1. Introduction

  • 关于数据集大小减小对对象检测模型性能的不利影响的分析。

  • 一项全面的度量研究,以显示各种数据集的底层分布之间的关系。

  • 在大型合成数据集和小型真实数据集上进行混合训练。

  • 在具有少量真实数据的大型合成数据集上训练的微调模型。

  • 评估同时在多个合成数据集上训练对小型真实数据集微调性能的影响。

​ 数据集的质量不仅仅是通过其大小来衡量的。影响数据集有效性的因素包括多样性、完整性、外观、对象出现分布和其他因素。

2. Literature Review

​ 大量注释数据的必要性是计算机视觉任务的瓶颈。处理这个问题的一种方法是使用廉价的合成生成的训练图像。然而,这种方法提出了一个重要问题;如何使用合成数据和真实数据来优化模型的训练。

​ 合成数据生成可以通过两种主要方式进行:

  • 真实数据增强
  • 通过模拟生成合成数据

​ 文献中的发现可以用一些经验法则得出结论;数据越多越好。从测试环境中获取的样本对模型的性能贡献更大。一旦超过特定比例,增强真实图像就会饱和。真实感传感器失真模型和环境分布模型对最终性能的影响大于样本的照片真实感。

3. Datasets and Data Statistics

​ 为了对拥有昂贵的真实数据的要求进行全面研究,我们使用了一组真实和合成数据集。选择这些数据集是为了为基于相机的对象检测提供全面的示例集。(都是自动驾驶领域的,对汽车和人进行目标检测)

3.1. Real Datasets

  • Berkeley Deep Drive (BDD)

  • Kitti CityScapes (KC)

  • NuScenes (NS)

3.2. Synthetic Datasets

  • Synscapes (7D)

  • Playing for Benchmark (P4B)

  • CARLA

4. Experiments

​ 合成和真实数据比率。用于训练集的合成数据和真实数据的各种比率。

ExperimentSynthetic RatioReal Ratio
Exp 10%100%
Exp 290%10%
Exp 395%5%
Exp 497.5%2.5%

4.1. Dataset Reduction

jpg

​ 总的趋势是,通过减少真实数据点的数量,我们在精度和召回方面都大幅牺牲了性能。我们还观察到,在所有数据集上,删除前 90% 的数据的相对效果小于删除后 5% 的数据的效果。

4.2. Dataset Similarity

jpg

​ 评估数据集之间的相似性。

​ 将一个数据集与其他数据集进行比较。在本节中,所有数据集都以完整的训练集大小进行训练,以在自己的测试集上获得最佳结果。然后,使用他们训练的模型来评估他们在其他数据集上的性能。

​ 所有的合成数据集都存在特异性问题,这导致模型无法进行适当的泛化。它们在自己的测试集上表现非常好,但在任何其他测试集上它们的性能都会受到影响。

4.3. Synthetic-Real Data Mixing

​ 与纯合成训练相比,通过添加少量真实数据来观察性能的提高,这一假设得到了证实。这意味着在数据注释中可以实现相当大的成本节约。

4.4. Synthetic Training and Real Data Fine-tuning

​ 我们采取了迁移学习的方法。首先在合成数据集上训练模型,然后在每个真实数据集上进行微调。

4.5. Combination of Synthetic Datasets

jpg

​ 将所有的合成数据集结合起来训练模型。稍后,该模型在 1500 张真实图像上进行了微调。

​ 将所有合成数据集组合起来进行训练比单独使用它们提供更好的结果。

​ 这可归因于组合训练数据的完整性。由于每个数据集都是从独立的来源生成的,因此它们的结合提供了一个更完整的数据集。

5. Conclusion

​ 我们评估了组合多个独立合成数据集的性能。然而,需要对使用单一来源实现完整数据集的方法进行更多研究,同时解决与数据集创建相关的所有剩余挑战。

​ 我们希望这篇论文能深入了解真实数据和合成数据之间的主要动力学,并指导未来的研究,以产生使用少量真实数据训练神经网络的成本效益高的程序方法。